#градиент политики02.06.2025
Революция в рассуждениях LLM с офф-политик RL и регуляризацией KL-дивергенции
Исследователи представляют Regularized Policy Gradient (RPG) — новый фреймворк, использующий KL-дивергенцию в офф-политик RL для улучшения рассуждений и стабильности обучения в больших языковых моделях.